Methods On Demand 2023
Herzlich Willkommen!
- Samuel Merk
- Professor für empirische Schul- und Unterrichtsforschung
- Interessiert an evidenzinformierter Schul- und Unterrichtsentwicklung
- Open Science Enthusiast
- Inhaltliche Interessen
- Stand der Promotion
- Vorerfahrung Statistik
- Workshops
- Modelle (t-Test, ANOVA, …)
- Software
- An was würdet ihr gerne arbeiten?
Masterplan
- Grundbegriffe
- Korrelation
- Regression
- Einfache lineare Regression (LM)
- Multiple lineare Regression
- Generalized Linear Models (GLM)
- Logistische Regression
- Poisson Regression
- Konfirmatorische Faktorenanalyse (CFA)
- Latente Variablen
- Messmodelle
- Model-Fit Evaluation
- Strukturgleichungsmodellierung (SEM)
- Motivation
- Grundlegende Vorgehensweise
Zum Modus des Workshops
Block I: Grundbegriffe
Block II: Korrelation
Warm-Up Aufgaben
Definitionen
Die Pearson Definition ist wie folgt definiert:
\[r_{x, y}=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \sum_{i=1}^n\left(y_i-\bar{y}\right)^2}} = \frac{Cov(x,y)}{s_x \cdot s_y} = Cov(x,y) \cdot \frac{1}{s_x} \cdot \frac{1}{s_y}\]
In der folgenden dynamischen Visualisierung kann man sehen, dass die Kovarianz der »gerichteten Fläche« entspricht:
Da die Kovarianz aber von der Maßeinheit der Größen abhängt wird diese durch die Standardabweichung beider Größen geteilt.
Eigenschaften Pearson’s \(r\)
- Pearson’s \(r\) beschreibt die Stärke der (negativen oder positiven) Assoziation zweier bivariat normalverteilten Variablen
- Pearson’s \(r\) nimmt Werte zwischen -1 und 1 an \((-1 \leq r \leq 1)\). -1 impliziert die maximale negative Assoziation, 0 keine Assoziation und 1 die maximale positive Assoziation
- Nach Cohen (1988), gilt \(r =.1\) (bzw. \(r = -.1\)) als kleiner Effekt, \(r =.3\) (bzw. \(r = -.3\)) als moderater und \(r =.5\) (bzw. \(r = -.5\)) als starker Effekt
Visual Guessing Pearson’s \(r\)
Meiner Erfahrung nach ist es höchst sinnvoll Effektstärken in Grafiken überstezen zu können und umgekehrt. Um dies zu lernen kann die folgende handgestrickte App dienen.
Block III: Regression
Einfache lineare Regression
Bsp: Lernstunden vs. Lernerfolg
Parametrisierung
- Darstellung als Formel (Term)
- Typische Schreibweise: \(y_i = b_0 + b_1 \cdot x_i + \epsilon_i\)
- Generalisierte Schreibweise: \(y_i \sim \mathcal{N}(\mu,\,\sigma^{2})\) mit \(\mu = b_0 + b_1 \cdot x_i\)
- Datenbeispiel: \(\text{Punkte}_i = 10 + 0,5 \cdot \text{Vorbereitungsaufwand}_i + \epsilon_i\)
- Darstellung als Pfadmodell
Parameterschätzung
Effektstärke \(\beta_1\)
Effektstärke \(R^2\)
Multiple Regression
- Typische Schreibweise: * \(y_i = b_0 + b_1 \cdot x_{1i} + b_2 \cdot x_{2i} + \dots + b_j \cdot x_{ji} + \epsilon_i\)
- Generalisierte Schreibweise: \(y_i \sim \mathcal{N}(\mu,\,\sigma^{2})\) mit \(\mu = b_0 + b_1 \cdot x_{1i} + b_2 \cdot x_{2i} + \dots + b_j \cdot x_{ji}\)
- Datenbeispiel: \(\text{Punkte}_i = -0,13 + 0,52 \cdot \text{Vorbereitungsaufwand}_i + 0,38 \cdot \text{Pruefungsangst}_i + \epsilon_i\)
- Darstellung als Pfadmodell
- Geometrische Darstellung
Block IV: Generalized Linear Models
Ein verallgemeinertes lineares Modell umfasst typischerweise
- einen Datenvektor \(y = (y_1, . . . , y_n)\)
- Prädiktoren \(\mathbf{X}\) und Koeffizienten \(\beta\), die einen linearen Prädiktor \(\mathbf{X}{\beta}\) bilden
- Eine Verknüpfungsfunktion \(g\), die einen Vektor von transformierten Daten \(\hat{y}=g^{-1}(\mathbf(X) \beta)\) ergibt, die zur Modellierung der Daten verwendet werden
- Eine Datenverteilung, \(P(y)\)
- Möglicherweise andere Parameter, wie Varianzen, »Überstreuungen« und Grenzwerte, die in die Prädiktoren, die Verknüpfungsfunktion und die Datenverteilung eingehen.
Beispiel logistische Regression
Mit der logistischen Regression werden Binäre Daten (nominale Variablen mit zwei Ausprägungen) anhand von metrischen oder dummykodierten Variablen prädiziert. Dabei gilt:
\[\begin{aligned} y_i & \sim \operatorname{Bernoulli(p_i)} \\ \operatorname{logit}\left(p_i\right) & =X_i \beta \end{aligned}\]mit \(\operatorname{logit}(x)=\log (x /(1-x))\).
data_poll_repub <-
read_dta("data/polls.dta")
mod_poll01 <-
glm(bush ~ age,
family = binomial(link = "logit"),
data = data_poll_repub)
summary(mod_poll01)
Call:
glm(formula = bush ~ age, family = binomial(link = "logit"),
data = data_poll_repub)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.313 -1.292 1.047 1.067 1.108
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.36314 0.04812 7.547 4.47e-14 ***
age -0.04930 0.01887 -2.613 0.00898 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 15858 on 11565 degrees of freedom
Residual deviance: 15851 on 11564 degrees of freedom
(1978 observations deleted due to missingness)
AIC: 15855
Number of Fisher Scoring iterations: 3
mod_poll02 <-
glm(bush ~ black,
family = binomial(link = "logit"),
data = data_poll_repub)
summary(mod_poll02)
Call:
glm(formula = bush ~ black, family = binomial(link = "logit"),
data = data_poll_repub)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.336 -1.336 1.027 1.027 1.752
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.36581 0.01968 18.59 <2e-16 ***
black -1.65796 0.08382 -19.78 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 15858 on 11565 degrees of freedom
Residual deviance: 15376 on 11564 degrees of freedom
(1978 observations deleted due to missingness)
AIC: 15380
Number of Fisher Scoring iterations: 4
Block IV: Konfirmatorische Faktorenanalyse
Zunächst herzlichen Dank an Sascha Epskamp für die Möglichkeit Vieles aus seinen Materialien zu übernehmen!
Konfirmatorische Faktorenanalyse ist ein zentrales Tool der Psychometrie. Sie stellt eine Möglichkeit dar, den Zusammenhang von latenten Variablen und ihren Indikatoren formal zu beschreiben.
In dieser Schreibweise gilt:
- Kreise: Latente Variablen
- Rechtecke/Quadrate: Beobachtete Variablen/Measurements/Daten/Indikatoren
- Unidirektionale Pfeile: Kausale Effekte
- Bidirektionale Pfeile: Kovarianzen
\[ \begin{aligned} y_{i 1} & =\lambda_{11} \eta_{i 1}+\varepsilon_{i 1} \\ \eta_1 & \sim N\left(0, \sqrt{\psi_{11}}\right) \\ \varepsilon_1 & \sim N\left(0, \sqrt{\theta_{11}}\right) \end{aligned} \]
Man nennt \(\lambda_{11}\) Faktorladung, \(\varepsilon_{i 1}\) Residualvarianz und \(\psi_{11}\) Faktorvarianz. Obwohl wir die Skala des Faktors nicht kennen können wir dennoch die Varianz des Indikators zur Varianz der Variablen ins Verhältnis setzen:
\[ \operatorname{Var}\left(y_1\right)=\lambda_{11}^2 \psi_{11}+\theta_{11} \]
Schan daraus kann man sinnvolle statistische Größen für die Reliabilität ableiten, z.B. den Anteil der Varianz in der latenten Variable, die durch den Indikator erklärt wird.
\[ \frac{\lambda_{11}^2 \psi_{11}}{\lambda_{11}^2 \psi_{11}+\theta_{11}} \] Diese Annahmen identifizieren aber die Skala der latenten Variable noch nicht, denn wenn wir \(\lambda_{11}\) um \(c\) vervielfachen und \(\psi_{11}\) duch \(c^2\) teilen erhalten wir dieselbe Varianz von \(y\). Typischerweise »setzt«/»fixiert«/»restringiert« man entweder \(\lambda_{11} = 1\) oder \(\psi_{11} = 1\).
Das zentrale Problem ist nun, dass man Parameter und latente Variablen nicht simultan/gemeinsam schätzen (also aus den Daten ermitteln) kann. Die zentrale Strategie zur Lösung dieses Problems im Rahmen der CFA ist »Kovarianzmodellierung«. Dabei sucht man nach analytischen Zusammenhängen (»Formeln«) die nur die beobachteten Variablen/Daten enthalten und Varianzen/Kovarianzen der latenten Variablen:
In diesem Beisopiel erkennt man ein weiteres Problem: \(\operatorname{Var}\left(y_1\right)\) ist nicht »identifiziert« = »es gibt \(\infty\) viele Möglichkeiten für \(\operatorname{Var}\left(y_1\right)\)« = »es liegen negative Freiheitsgrade vor«. Diese sind weie folgt definiert:
\[\operatorname{DF}=a−b\] Wobei
- a die Anzahl der beobachteten Variablen ist, woraus sich \(\frac{a(a + 1)}{2}\) Varianzen und Kovarianzen berechnen lassen und
- b die Anzahl der Parameter ist. die geschätzt werden muss.
- Typischerweise braucht man 3 Indikatoren für ein Modell mit einer einzigen latenten Variable oder 2 je Faktor/latenter variable mit mehrern korrelierten latenten Variablen
Das allgemeine Rahmenmodell der CFA
\[ \begin{aligned} \boldsymbol{y}_i & =\boldsymbol{\Lambda} \boldsymbol{\eta}_i+\boldsymbol{\varepsilon}_i \\ \boldsymbol{y} & \sim N(\mathbf{0}, \boldsymbol{\Sigma}) \\ \boldsymbol{\eta} & \sim N(\mathbf{0}, \Psi) \\ \varepsilon & \sim N(\mathbf{0}, \boldsymbol{\Theta}) \end{aligned} \]
Dabei ist
- \(\boldsymbol{y}_i\) ein Vektor der Länge \(p\) mit den »Responses«/»beobachteten Variablen«/»Indikatoren«
- \(\boldsymbol{\eta}_i\) ein Vektor der Länge \(m\) von latenten Variablen
- \(\varepsilon_i\) ein Vektor der Länge \(p\) mit Residuen
- \(\Lambda\) eine Matrix der Größe \(p \times m\) mit Faktorladungen
- \(\boldsymbol{\Psi}\) eine symmetrische Matrix der Größe \(m \times m\) mit Varianzen und Kovarianzen
- \(\boldsymbol{\theta}\) eine symmetrische Matrix der Größe \(p \times p\) mit Varianzen und Kovarianzen der Residuen.
Die modellimplizierte Varianz-Kovarianz-Matrix ergibt sich dann als \[\boldsymbol{\Sigma}=\boldsymbol{\Lambda} \Psi \boldsymbol{\Lambda}^{\top}+\boldsymbol{\theta}\]
Schätzung von \(\boldsymbol{\Sigma}\)
Die beobachtete Varianz-Kovarianz-Matrix ist ein erwartungstreuer Schätzer für $. Die dabei typischerweise verwendete Maximum-Likelihood Funktion ist
\[F_{\mathrm{ML}}=\operatorname{trace}\left(\boldsymbol{S} \boldsymbol{\Sigma}^{-1}\right)-\ln \left|\boldsymbol{S} \boldsymbol{\Sigma}^{-1}\right|-p\]
- Dabei ist
- \(\boldsymbol{S}\) die beobachtete Varianz-Kovarianz-Matrix,
- \(\operatorname{trace}\) die Spur einer Matrix und
- \(\left| ... \right|\) die Determinate einer Matrix.
- \(F_{\mathrm{ML}}=0\) falls \(\boldsymbol{S} = \boldsymbol{\Sigma}\)
- \(F_{\mathrm{ML}}\) kann also sowohl zur Schätzung von \(\boldsymbol{\Sigma}\) dienen als auch als Maß für die »Devianz«/»Nicht-Passung des Modells«.
Eine anschauliche Einführung in die Grundprinzipien der ML-Schätzung bietet (Magnusson, 2020).
Beispiele für das CFA-Framework
One-Leg-Model
Two-Leg-Model
Three-Leg-Model
Two-Factor-Model
Two-Factor-Model mit Residualkovarianz
Modellfitevaluation für CFA
Test auf exakten Fit
Für das CFA-Framework gilt:
\[ n \cdot F_{ML} = T \sim \chi^2(\mathrm{DF}) \Longleftrightarrow \operatorname{Var}(\boldsymbol{y})=\boldsymbol{\Sigma}\] Das bedeutet man kann die Nullhypothese \(H_0: \; \boldsymbol{S} = \boldsymbol{\Sigma}\) (»exakter Fit«) testen. Problem dabei ist, dass nicht-signifikante Testergebnisse inkonklusiv sind und bei sehr großen \(N\) \(\boldsymbol{S}\) immer signifikant von \(\boldsymbol{\Sigma}\) abweicht, obwohl die »Effektstärke« der Nicht-Passung dabei sehr klein sein kann.
Root Mean Square Error of Approximation (RMSEA)
Der RMSEA misst operationalisiert den absoluten Fit (kein Vergleichsmodell) indem er den Missfit zur Anzahl der Freiheitgrade und der Stichprobengröße setzt:
\[\operatorname{RMSEA} = \sqrt{\frac{T_M-\mathrm{DF}_M}{\left(n \mathrm{DF}_M\right)}}\]
»Typische« Benchmarks (Hu & Bentler, 1999, S. marsh2004) sind:
- < .05 “very good fit” or “close fit”
- .05 − .08 “good fit” or “fair fit”
- .08 − .1 “mediocre fit” or “good fit”
- .05 − .08 “good fit” or “fair fit”
.10 “poor or unacceptable”
Der RMSEA ist einer der wenigen Indices, von denen man die approximative Verteilung kennt. Daher kann man in auch testen. Also z.B. die Nullhypothese verwerfen, dass \(\operatorname{RMSE} > .10\)
Inkrementelle Fit Indices
Es liegen eine Vielzahl an inkrementellen Fit-Indices vor. Alle haben Vor- und Nachteile. Zur Ermittlung dieser Indices wird der Fit des vorliegenden Modells mit dem Fit des Baselinemodells oder dem Fit des saturierten Modells verglichen.
Zum Beispiel:
- \(\operatorname{TLI}=\frac{T_B-\frac{d f_B}{d f_M} T_M}{T_B}\)
- \(\operatorname{CFI}=1-\frac{T_M-d f_M}{T_B-d f_B}\)
wobei das Index \(_{B}\) für das Baselinemodell steht.
Worked out Examples: CFA
Strukturgleichungsmodellierung (SEM)
Strukturgleichungsmodelle unterscheiden sich von CFA-Modellen dadurch, dass sie neben dem Messmodell zusätzlich noch ein Strukturmodell annehmen. Die unglaubliche Vielfalt an Modellklassen die SEM erlaubt rührt im wesentlichen von der Tatsache her, dass in SEM Variablen abhängige und unabhängige Variable zugleich sein können. So lassen sich Modelle für
- Gruppenunterschiede
- Konstruktvalidierung
- Zeitliche Verläufe
- Ähnlichketi von zeitlichen Verläufen
- u.v.a.m.
spezifizieren.